@大模型生成文本检测综述A Survey on LLM-Generated Text Detection

1. 摘要与引言

背景: 大语言模型 (LLM) 生成的文本在日常生活中迅速普及。
必要性:
- 减轻 LLM 的潜在滥用（如虚假信息、学术欺诈）。
- 保护艺术表达、社交网络等领域。
- "模型自噬"危机：LLM训练数据中大量使用自身生成文本，可能导致数据同质化，阻碍模型发展。
核心任务: LLM 生成文本检测，本质是二元分类任务，旨在区分文本由 LLM 生成还是由人类书写。
主流技术分类:
- 水印技术 (Watermarking)
- 基于统计的检测器 (Statistics-based)
- 基于神经网络的检测器 (Neural-based)
- 人工辅助方法 (Human-assisted)
本文目标: 系统性整理该领域的研究突破，并指出未来的研究方向。

2. 背景知识

2.1 LLM 生成文本检测任务

定义: 一个二元分类任务，判断给定文本 $x$ 的来源。
- 公式: $D (x) = {\begin{cases} 1 & if x generated by LLMs \\ 0 & if x written by human \end{cases}$
核心挑战: LLM 生成的文本与人类文本在风格和内容上高度相似。
已知差异:
- 风格: LLM 文本通常句法更简单，多用被动语态，更具组织性、逻辑性和客观性。
- 词汇: LLM 文本的词汇量相对有限，名词、动词等词类频率更高，情感强度较低。

2.2 LLM 文本生成机制与能力来源

生成机制:
- 核心: 序贯地 (sequentially) 预测下一个词元 (token)。
- 解码策略 (Decoding Strategy):
  - Greedy Search (贪婪搜索): 快速简单，但缺乏多样性。
  - Beam Search (集束搜索): 提升文本质量，但易产生重复。
  - Top-K Sampling: 增加多样性，但生成质量难控制。
  - Top-P (Nucleus) Sampling: 在连贯性和多样性之间取得平衡。
强大能力的来源:
- In-Context Learning (ICL): 无需改变模型参数，通过提示 (prompt) 中的示例快速适应新任务。
- Alignment of Human Preference (与人类偏好对齐): 通过人类反馈强化学习 (RLHF)，使输出更符合人类价值观。
- Complex Reasoning (复杂推理): 通过思维链 (CoT) 等技术，引导模型完成复杂推理任务。

2.3 检测的必要性

五个关键视角:
- 监管 (Regulation): 应对知识产权归属、AI 法规等法律问题。
- 用户 (Users): 维护用户对数字内容的信任。
- 模型发展 (Developments): 避免训练数据被 LLM 输出污染，导致“模型自噬 (Model Autophagy Disorder)”。
- 科学 (Science): 维护学术诚信，保护人类的独创性和探索精神。
- 人类社会 (Human Society): 保护语言多样性，防止信息茧房的形成。

4. 数据集与基准

4.1 训练数据集

专用数据集: HC3, CHEAT, OpenLLMText, DeepfakeTextDetect 等。
可扩展的潜在数据集来源:
- 问答 (Q&A): PubMedQA, SQuAD, ELI5
- 学术写作: Peer Read, ArXiv
- 故事生成: WritingPrompts
- 新闻写作: XSum
- 社交媒体: Twitter 相关数据集

4.2 评估基准 (Evaluation Benchmarks)

目的: 在标准化环境下验证和比较检测器的性能。
主要基准: TuringBench, MGTBench, GPABenchmark, MULTITUDE, M4。
关键维度：多种攻击类型、多领域、多任务、多模型、多语言

4.3 数据面临的挑战

评估框架不全面: 现有基准在攻击类型、领域、任务、模型和语言覆盖上不足。
时效性问题: 许多数据集基于较旧的 LLM，未能反映最新模型的能力，需要持续更新。

5. 检测器研究进展

5.1 水印技术 (Watermarking Technology)

核心思想: 在生成过程中嵌入人类无法察觉但算法可以检测的信号。
主要类别:
- 数据驱动:(Data-Driven Watermarking)
  - 方法: 在训练集中植入带标记的样本（后门） (Backdoor Insertion)。
  - 研究者会创建一小部分特殊的、带有水印标记的训练样本。这些样本包含一个特定的“触发器”（比如一个罕见的词或短语）和一个预设的“秘密功能”（比如生成特定的句子或遵循某种模式）。将这些样本混入正常的训练数据中，模型在学习语言知识的同时，也会“秘密地”学会这个后门。当模型在推理时遇到这个触发器，就会激活水印。
  - 缺点: 成本高，需重训模型，通用性差。
- 模型驱动:(Model-Driven Watermarking)
  - 方法:不改变模型的训练数据或权重，而是在生成每一个词元（token）时，通过操纵词汇表的概率分布（logits）或干预采样过程来实现。
  - 基于 Logits 的方法: 这是最主流的方式。
    - 在生成下一个词元之前，算法使用一个秘密密钥（通常是一个随机数种子）将整个词汇表随机划分为两组：“绿名单 (green list)”和“红名单 (red list)”。
    - 算法会轻微地提升“绿名单”中所有词元的原始概率 (logits)，使得模型更有可能从这个“绿名单”中选择下一个词。
    - 这个过程在生成每个词元时都会重复，不断地产生新的“绿名单”。
    - 检测时，检测算法使用相同的密钥，就能知道在每一步生成时哪些词是“绿名单”里的。如果一段文本中“绿名单”词元的比例异常地高，那么它就极有可能是被加了水印的。
  - 基于 Token 采样的模型: 使用秘密密钥来控制采样过程中的随机性，使得词元的选择序列符合一个可被密钥验证的模式。
  - 优点: 即插即用，无需重训，对文本质量影响小。
  - 缺点:
    - 鲁棒性仍受挑战: 尽管有一些方法（如基于语义的水印）在努力提升，但这类水印在面对复述攻击 (Paraphrase Attacks) 时依然脆弱。攻击者可以使用另一个模型对加了水印的文本进行转述，从而破坏原始的词元概率分布，使水印失效。
- 后处理: (Post-Processing Watermarking)
  - 方法: 在文本生成后对其进行修改以嵌入水印（如替换为同形异义的 Unicode 字符、同义词替换）。
    - 字符嵌入方法: 利用 Unicode 编码。例如，将常规的空格 (U+0020) 替换成一个看起来一模一样但编码不同的空格（如 U+2004）。这种差异肉眼无法分辨，但程序可以轻松检测。
    - 同义词替换方法: 根据一个秘密的规则，将文本中的某些词语替换成它们的同义词，从而嵌入二进制信息（例如，原词代表 "0"，同义词代表 "1"）。
    - 序列到序列方法: 使用一个独立的、轻量级的模型（如 T5 或 BART）对原文进行细微的改写，在改写过程中将水印信息编码进去。
  - 优点: 可应用于任何黑盒模型。
  - 缺点
    - 更易被攻击: 因为修改是基于特定规则的，这些模式化的修改痕迹可能更容易被高级的攻击手段所识别和抹除。
    - 可能影响文本语义: 相比模型驱动的方法，后处理修改有更大的风险会轻微改变原文的语义或流畅性。

5.2 基于统计的方法 (Statistics-Based Methods)

这种方法的核心思想是：人类写作和机器生成在语言的统计规律上存在着根本性的、可测量的差异。基于统计的检测器就是通过捕捉这些差异来区分文本来源，它通常不需要像神经网络方法那样进行大规模的监督学习（即用大量标注好的数据来训练一个分类器）。
根据论文，我们可以将这类方法分为三大派别，它们的区别主要在于需要什么样的数据或模型访问权限。

1. 语言学特征统计 (Linguistics Features Statistics)

这是最传统、最直观的一类方法，它关注的是文本中宏观的、可解释的语言学特性。

工作原理:
- 研究者会从文本中提取一系列预先定义好的语言学特征，然后通过分析这些特征的分布来判断文本来源。
- 这些特征就像是文本的“指纹”。例如，研究发现 LLM 生成的文本往往：
  - 词汇多样性较低: 使用的词汇相对集中，不如人类丰富多变。
  - N-gram 频率异常: 某些特定的词组（如二元组 bigrams）出现的频率与人类写作习惯显著不同。论文提到，有研究发现 ChatGPT 生成的文本中只有 23% 的二元组是唯一的，这远低于人类写作。
  - 句法结构更单一: 倾向于使用更简单、更规范的句子结构。
  - 功能词使用模式固定: 对介词、冠词等功能词的使用模式比较刻板。
优点:
- 可解释性强: 检测结果的依据是具体的语言学特征（如“词汇多样性低”），易于理解和分析。
- 无需访问模型: 是一种纯粹的文本分析方法，对任何来源的文本都适用。
缺点 (根据论文):
- 强依赖大规模背景语料库: 为了判断一个特征是否“异常”，你需要一个非常庞大的、高质量的人类文本语料库作为基准。这个基准的建立成本很高，且其统计特性会因领域（新闻、学术、小说）的不同而变化。
- 鲁棒性较差: 攻击者可以通过简单的同义词替换或句式变换来轻易地改变这些宏观特征，从而绕过检测。

2. 白盒统计 (White-Box Statistics)

“白盒”意味着我们可以看到模型的内部工作状态。这类方法是目前零样本（zero-shot）检测中非常强大和流行的分支。

关键要求: 必须能够直接访问生成文本的原始 LLM，并获取其内部的 logits 输出。（Logits 是模型在输出最终词元概率之前的原始、未经归一化的打分）。
工作原理:
- 这类方法的核心假设是：LLM 生成的文本完美地契合其自身的概率分布，而人类文本则不会。
- 核心指标:
  1. 对数似然度 (Log-Likelihood): 一段文本由某个 LLM 生成的概率。通常，LLM 生成的文本在它自己看来，“可能性”会非常高。
  2. 对数排名 (Log-Rank): 在生成每个词时，模型都会对整个词汇表进行概率排序。LLM 倾向于选择排名非常靠前的词，而人类的用词则更加出人意料，排名可能会低很多。
  3. 熵 (Entropy) / 困惑度 (Perplexity): 衡量文本的“不确定性”或“惊奇程度”。LLM 生成的文本通常非常流畅、可预测，因此熵和困惑度较低。
- 代表方法 (DetectGPT):
  - 这是一个非常巧妙的方法。它认为 LLM 生成的文本位于模型概率分布的“峰顶”。
  - 检测步骤: 1) 获取原始文本。2) 使用另一个模型（如 T5）对原始文本进行多次轻微的扰动（生成一些语义相似的句子）。3) 用原始 LLM 计算原始文本和所有扰动后文本的对数似然度。
  - 判断: 如果原始文本的似然度远高于所有扰动后文本的平均似然度（即处在一个尖锐的“峰顶”），那么它很可能是 LLM 生成的。人类文本则不会有这么显著的下降。
优点:
- 性能强大: 在能够获取 logits 的情况下，准确率非常高。
- 零样本能力: 无需额外训练，直接计算即可。
缺点 (致命):
- 要求过高: 严重依赖对源模型的访问权限。这使得它完全无法用于像 GPT-4、Claude 这类通过 API 提供服务的闭源模型。

3. 黑盒统计 (Black-Box Statistics)

“黑盒”意味着我们无法看到模型内部，只能像普通用户一样调用它的 API 接口。这类方法更贴近现实应用场景。

关键要求: 只需要能够调用某个（不一定是原始的）LLM 的 API 即可。这个被调用的 LLM 通常被称为“代理模型”或“替代模型”。
工作原理:
- 通过巧妙地设计与代理模型的交互，来发掘文本的统计异常。
- 方法示例:
  1. 续写与比较: 将待测文本的一部分输入给一个代理 LLM，让它续写。然后比较原文和续写部分在风格、用词（如 n-gram 相似度）上的一致性。如果原文是 LLM 生成的，那么续写部分会和原文“浑然一体”；如果原文是人类写的，续写部分可能会出现风格上的断层。
  2. 重写与比较: 要求代理 LLM 重写或润色待测文本。人类写的文本在重写后通常会有较大改动，而 LLM 生成的文本由于已经很“规范”，重写后的改动幅度会小很多。
  3. 去噪与比较: 先对原文人为地加入一些“噪声”（如随机替换或删除一些词），然后让代理 LLM“修复”这段带噪声的文本。如果原文是 LLM 生成的，代理模型很可能能将其完美地恢复到接近原始的状态。
优点:
- 实用性强: 突破了白盒方法必须访问 logits 的限制，可以应用于各类闭源的 API 模型。
缺点:
- 开销巨大且速度慢: 每个待测文本都需要进行一次或多次 API 调用，这不仅会产生费用，而且非常耗时。
- 对代理模型有一定依赖: 检测效果的好坏，部分取决于你使用的代理模型的性能。

5.3 基于神经网络的方法 (Neural-Based Methods)

核心思想是将文本检测视为一个经典的监督学习 (supervised learning) 分类任务。它不再依赖人类专家去定义哪些统计特征是重要的，而是让一个强大的神经网络模型自己从大量的标注数据中学习区分人类文本和 AI 文本的微妙模式。

1. 基于特征的分类器 (Features-Based Classifiers)

这是一种“混合”方法，它结合了统计方法的思想和神经网络的分类能力。

工作原理:
1. 特征提取: 首先，像“语言学特征统计”方法一样，从文本中提取一系列明确的、可量化的特征。这些特征可以是：
  - 语言学特征: 如词性分布、句子复杂度、情感分数、标点使用习惯等。
  - 模型特征 (Model Features): 这是一个更高级的步骤，需要白盒访问权限。研究者会用源模型计算文本的困惑度 (perplexity)、对数似然度 (log-likelihood) 等统计指标，并将这些指标本身作为输入特征。例如，论文中提到的 Sniffer 和 SeqXGPT 就是这么做的。
2. 分类: 然后，将这些提取出来的特征向量输入到一个相对简单的分类器中进行训练。这个分类器可以是一个小型的神经网络，也可以是传统的机器学习模型（如 KNN、SVM 等）。
优点:
- 通过融合多种特征，有时可以达到非常高的检测精度。
缺点:
- 鲁棒性差: 这类分类器在面对语义模糊的文本时表现不佳。它们容易被那些在风格上模仿人类写作的 AI 文本所欺骗。
- 依赖模型访问: 如果使用了“模型特征”，那么它就继承了白盒方法的所有缺点，即需要访问模型的 logits，这在现实中非常困难。

2. 预训练分类器 (微调) (Pre-Training Classifiers / Fine-tuning)

这是目前基于神经网络方法中最主流、性能最强大的范式。

工作原理:
- 它完全抛弃了手动提取特征的步骤。其核心是利用大型预训练语言模型 (Pre-trained LMs)，如 BERT 或其变体 RoBERTa（论文多次强调 RoBERTa 在此任务上的卓越表现）。
- 流程:
  1. 选择一个强大的预训练模型（如 RoBERTa），这个模型已经通过在海量文本上的学习，具备了深厚的语言理解能力。
  2. 在其顶部添加一个简单的分类层（例如，一个输出“人类”或“AI”的全连接层）。
  3. 准备一个包含成千上万条已标注文本的训练数据集（例如，5000 篇人类文章和 5000 篇 ChatGPT 生成的文章）。
  4. 在这个特定任务的数据集上对整个模型进行微调 (Fine-tuning)。在这个过程中，模型会调整其内部的亿万个参数，使其成为一个专门用于检测 AI 文本的“专家”。
高级训练策略:
- 对比学习 (Contrastive Learning): 在数据量不足时特别有效。其目标是在模型的表示空间中，将相似的样本（如两篇 AI 文本）的距离拉近，将不相似的样本（一篇人类文本和一篇 AI 文本）的距离推远。
- 对抗性学习 (Adversarial Learning): 为了提升模型的鲁棒性，采用“左右互搏”的策略。让一个“攻击者”模型专门生成难以被检测的文本，同时让“检测器”模型努力去识别这些文本。两者在对抗中共同进化，最终训练出一个能抵御复杂攻击的强大检测器。
优点:
- 性能顶尖: 论文称其为“最强大的检测器之一 (most formidable detectors)”，在特定领域内可以达到极高的准确率（通常在 95% 以上）。
缺点 (非常关键):
- 严重过拟合，泛化能力差: 这是该方法最大的软肋。
  - 跨模型泛化差: 在 GPT-2 数据上训练的检测器，几乎无法有效检测 GPT-4 生成的文本。
  - 跨领域泛化差: 在新闻数据上训练的检测器，用于检测学术论文时，性能会急剧下降。
  - 数据依赖: 需要大量的、高质量的标注数据，获取成本高。

3. LLM 即检测器 (LLMs as Detectors)

这种方法探索了直接利用大型语言模型（如 GPT-4）本身来进行检测的可能性。

工作原理:
- 直接检测 (Zero-shot): 直接向 LLM 提问，例如：“请判断以下文本是由人类还是 AI 编写的？”
  - 结论: 论文指出，这种方法完全不可靠 (questionable reliability)。研究表明，不同的 LLM 存在不同的偏见：ChatGPT 倾向于将 AI 文本误判为人类，而 GPT-4 则倾向于将人类文本误判为 AI。
- 上下文学习 (In-Context Learning, ICL): 这是一种更有前景的方式。通过在提示 (prompt) 中给 LLM 提供几个示例（即 few-shot prompting），来“教会”它如何进行检测。
  - 示例: “这是一个 AI 写的例子：[...]。这是一个人类写的例子：[...]。现在，请分类这段新文本：[...]。”
  - 结论: 论文提到，实验证明 ICL 策略的表现可以优于传统的零样本方法和一些微调的 RoBERTa 检测器，显示出巨大的潜力。
优点:
- 灵活性高 (ICL): 无需重新训练或微调模型，可以快速适应新的检测需求。
缺点:
- 直接检测不可靠: 存在严重偏见，不能用于严肃的应用场景。
- 成本和效率: 每次检测都需要调用大型模型的 API，成本较高且速度较慢。

5.4 人工辅助方法 (Human-Assisted Methods)

不应将人类与机器视为对立的检测者，而应将其视为合作者。它充分利用人类与生俱来的先验知识、常识推理和对微妙上下文的感知能力，并将这些能力与机器的计算优势相结合。这种方法最大的特点是其出色的可解释性 (interpretability) 和可信度 (credibility)。

1. 直观指标 (Intuitive Indicators)

这部分关注的是人类能够凭借直觉或专业知识直接识别出的特征，这些特征往往是纯粹的统计或神经网络模型容易忽略的。

核心思想: 人类在评估文本时，并不仅仅依赖于词频或概率，而是会进行更高层次的语义和逻辑判断。
人类能轻易发现的 AI 文本缺陷:
- 事实与常识错误: 这是人类检测最强大的优势之一。AI 可能会捏造事实、引用不存在的文献或做出违反常识的判断，这些错误对人类来说一目了然。
- 缺乏一致性和连贯性: 文本的不同部分可能在观点或逻辑上自相矛盾。
- 内容“空洞”或“泛泛”: 尤其在专业领域（如学术写作），AI 生成的内容可能语法完美，但缺乏深入的见解、创新的动机描述和具体的方法论细节，读起来感觉“什么都说了，又好像什么都没说”。
- 过于“完美”的语法: 与普通人写作相比，AI 文本的语法错误和拼写错误要少得多，有时这种“完美”本身就是一种不自然的信号。
- 用词笼罩: 倾向于使用通用、模糊的术语，而不是针对特定问题上下文的、精确的、量身定制的信息。

2. 不易察觉的特征 (Imperceptible Features)

这部分思想非常巧妙，它不是让人类去寻找机器的弱点，而是用工具将机器的“思考过程”可视化，从而辅助人类发现那些肉眼无法察觉的统计异常。

核心思想: 人类擅长宏观判断，机器擅长微观统计。将微观统计结果以直观的方式呈现给人类，可以极大地增强人类的检测能力。
关键工具示例 (GLTR):(Giant Language model Test Room)
- 它的工作方式是：对于一段文本中的每一个词，GLTR 会查询一个语言模型，看这个词在当时上下文中的预测概率排名。然后用不同的颜色来标记：
  - 绿色: 排名最靠前（Top 10），表示这个词非常“可预测”。
  - 黄色/红色: 排名靠后，表示这个词比较“出人意料”。
  - 紫色: 不在 Top 1000 之内。
- 如何辅助人类: 一段看似正常的文本，如果经过 GLTR 分析后，绝大部分都是绿色的，那么人类审查员就能立刻得到一个强烈的信号：这段文本的用词选择极其刻板和可预测，这正是 LLM 的典型特征。它将复杂的概率分布问题，转化为了一个简单的视觉模式识别问题。

3. 增强人类检测能力 (Enhancing Human Detection Capabilities)

核心问题: 未经训练的普通人，在检测 AI 文本方面的表现可能还不如算法。
提升方法:
- 提供示例进行训练: 论文指出，在进行评估前，先让评估者看一些 AI 和人类文本的对比示例，可以显著提高他们的检测准确率，尤其是在处理较长样本时。
- 开发交互式平台: 像 RoFT 这样的平台，允许用户与 AI 生成的文本互动，通过实践来培养识别能力和直觉。
- 提供结构化注释框架: 像 SCARECROW 这样的框架，它不仅仅让用户做“是/否”的判断，而是提供了一个包含十种错误类型的详细清单（如事实错误、逻辑矛盾等），引导用户进行更细致、更深入的分析。研究表明，在这种框架下，人类手动标注在识别某些特定错误类型上优于自动化模型。

4. 混合检测：理解与解释 (Mixed Detection: Understanding and Explanation)

这是人机协同的最高级形式，旨在建立一个人类专家与机器学习模型之间的反馈循环。

工作流程:
1. 人类专家作为基准: 首先，由领域专家根据其专业知识对文本进行标注，并解释其判断依据。
2. 模型训练与迭代: 基于专家的标注数据，训练机器学习模型。
3. 模型选择与可视化: 通过可视化的统计分析（如 GLTR），选择一个对专家来说最直观、最易于理解的检测模型。
双重价值:
- 增强信任: 专家深度参与了模型的构建过程，因此他们更愿意信任模型的决策。
- 促进相互学习: 专家可以从模型的行为中学习，了解机器是从哪些他们可能忽略的角度来识别文本的，从而进一步提升自己的检测能力。这是一个人与机器相互促进、共同进步的过程。

6. 评估指标

基础: 混淆矩阵（True Positive, True Negative, False Positive, False Negative）。
常用指标:
- Accuracy (准确率): $$ \frac{TP+TN}{TP+TN+FP+FN} $$
- Precision (精确率): $$ \frac{TP}{TP+FP} $$
- Recall (召回率): $$ \frac{TP}{TP+FN} $$
- F1-Score: 精确率和召回率的调和平均值。
- AUROC (Area Under the ROC Curve): 衡量分类器在所有分类阈值下的性能，对不平衡数据更鲁棒。

7. 重要议题与挑战

7.1 分布外 (Out-of-Distribution) 挑战

跨领域: 在新闻领域训练的检测器，在学术领域性能会显著下降。
跨语言: 绝大多数检测器为英语设计，多语言检测能力不足。
跨模型: 检测器很难泛化到训练时未见过的 LLM。

7.2 潜在的攻击手段

复述攻击 (Paraphrase Attacks): 最有效的攻击之一，通过改写文本破坏其统计特征和水印。
对抗性攻击 (Adversarial Attacks): 通过微小的、人不易察觉的修改（如字符替换、单词交换）来欺骗检测器。
提示词攻击 (Prompt Attacks): 使用精心设计的复杂提示词，引导 LLM 生成更难被检测的文本。
训练威胁模型: 针对特定检测器进行微调，专门生成能够绕过该检测的文本。

7.3 真实世界的数据问题

非纯粹生成文本: 现实中的文本通常是人机混合或经人类编辑的，检测难度极大。
数据模糊性: 网上搜集的训练数据可能已被 LLM 文本污染，导致检测器训练出现偏差。

7.4 模型规模的影响

生成模型: 规模越大，生成的文本质量越高，越难检测。
检测模型: 规模越大，性能越强，但跨模型泛化能力可能反而下降。

7.5 缺乏统一有效的评估框架

各研究使用独立的评估标准和数据集，导致不同方法之间难以进行公平比较。

8. 未来研究方向

构建对攻击鲁棒的检测器。
增强零样本 (Zero-shot) 检测器的性能，特别是与模型无关的黑盒方法。
为低资源环境优化检测器。
专注于检测非纯粹的 LLM 生成文本（如混合、编辑后文本）。
解决训练数据中的数据模糊性问题。
开发与真实世界应用场景对齐的评估框架。
构建具备事实性、信息性甄别能力的检测器。

9. 结论

现状: LLM 生成文本检测已成为应对 AIGC 内容滥用的关键防御手段。
本文贡献: 系统性地梳理了该领域的任务、方法、挑战和机遇。
展望: 鼓励研究者关注现有方法的局限性，并朝着构建更强大、更高效、更贴近现实的检测系统努力。